参数估计 Parameter Estimation

统计推断 Statistical Inference，是研究如何根据样本数据去推断总体数据特征的方法。它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。

统计学中，统计推断与描述统计 Descriptive Statistics相对应。

统计推断的基本问题可以分为两大类，一类是估计问题，另一类是假设检验问题。

本章包括以下内容：

1. 点估计 Point Estimations
2. 区间估计 Interval Estimation

1. 点估计 Point Estimation

设总体 $X$ 的分布函数的形式已知，但它的一个或多个参数未知，借助于总体 $X$ 的一个样本来估计总体位置参数的值的问题称为参数的点估计问题。

点估计问题的一般提法如下：设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知，$\theta$ 是待估参数。$X_1, X_2, ..., X_n$ 是 $X$ 的一个样本，$x_1, x_2, ..., x_n$ 是对应的一个样本值。点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1, X_2, ..., X_n)$，用它的观察值 $\hat{\theta}(x_1, x_2, ..., x_n)$ 作为未知参数 $\theta$ 的近似值。我们称 $\hat{\theta}(X_1, X_2, ..., X_n)$ 为 $\theta$ 的估计量，称 $\hat{\theta}(x_1, x_2, ..., x_n)$ 为 $\theta$ 的估计值。在不致混淆的情况下统称估计量和估计值为估计，并都简记为 $\theta$。由于估计量是样本的函数。因此对于不同的样本值，$\theta$ 的估计值一般是不相同的。

下面介绍两种常用的构造估计量的方法：矩估计法和最大似然估计法

（一）矩估计法 Method of Moments

设 $X$ 为连续型随机变量，其概率密度为 $f(x;\theta_1, \theta_2, ..., \theta_k)$，或 $X$ 为离散型随机变量，其分布律为 $P\{X=x\}=p(x;\theta_1, \theta_2, ..., \theta_k)$，其中 $\theta_1, \theta_2, ..., \theta_k$ 为待估参数，$X_1, X_2, ..., X_k$ 是来自 $X$ 的样本。假设总体 $X$ 的前 $k$ 阶矩存在：

$$ \mu_l = E(X^l) = \int_{-\infty}^{\infty} x^lf(x;\theta_1, \theta_2, ..., \theta_k)dx （X连续型） $$$$ \mu_l = E(X^l) = \sum_{x \in R_X} x^lp(x;\theta_1, \theta_2, ..., \theta_k) （X离散型 $$$$ l=1,2,...,k; R_X是X可能取值的范围 $$

一般来说，它们是 $\theta_1, \theta_2, ..., \theta_k$ 的函数。

基于样本矩 $A_l=\frac{1}{n}\sum_{i=1}^{n}X_i^l$ 依概率收敛于相应的总体矩 $u^l(l=1,2,...,k)$，样本矩的连续函数依概率收敛于相应的总体矩的连续函数。使用样本矩作为相应的总体矩的估计量，而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。这种估计方法称为矩估计法。矩估计法的具体做法如下：设 $$ \begin{equation} \begin{cases} \mu_1 = \mu_1(\theta_1, \theta_2, ..., \theta_k) \\ \mu_2 = \mu_2(\theta_1, \theta_2, ..., \theta_k) \\ \vdots \\ \mu_k = \mu_k(\theta_1, \theta_2, ..., \theta_k) \end{cases} \end{equation} $$ 这是一个包含 $k$ 个未知参数 $\theta_1, \theta_2, ..., \theta_k$ 的联立方程组。一般来说，可以从中解出 $\theta_1, \theta_2, ..., \theta_k$，得到 $$ \begin{equation} \begin{cases} \theta_1 = \theta_1(\mu_1, \mu_2, ..., \mu_k) \\ \theta_2 = \theta_2(\mu_1, \mu_2, ..., \mu_k) \\ \vdots \\ \theta_k = \theta_k(\mu_1, \mu_2, ..., \mu_k) \end{cases} \end{equation} $$ 以 $A_i$ 分别代替上式中的 $\mu_i, i=1,2,...,k$，以 $$ \hat{\mu_i} = \mu_i(A_1, A_2, ..., A_k), i=1,2,...,k $$ 分别作为 $\theta_i, i=1,2,...,k$ 的估计量，这种估计量称为矩估计量。矩估计量的观察值称为矩估计值。

（二）最大似然估计法 Method of Maximum Likelyhood

若总体 $X$ 属离散型，其分布律 $P\{X=x\}=p(x;\theta), \theta \in \Theta$ 的形式已知，$\theta$ 为待估参数，$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, ..., X_n$ 是来自 $X$ 的样本，则 $X_1, X_2, ..., X_n$ 的联合分布律为 $$\prod_{i=1}^n p(x_i;\theta)$$

又设 $x_1, x_2, ..., x_n$ 是相应于样本 $X_1, X_2, ..., X_n$ 的一个样本值。易知样本 $X_1, X_2, ..., X_n$ 取到观察值 $x_1, x_2, ..., x_n$ 的概率，亦即事件 $\{X_1=x_1, X_2=x_2, ..., X_n=x_n\}$ 发生的概率为 $$ L(\theta) = L(x_1, x_2, ..., x_n; \theta) = \prod_{i=1}^n p(x_i;\theta), \theta \in \Theta $$

这一概率随 $\theta$ 的取值而变化，它是 $\theta$ 的函数，$L(\theta)$ 称为样本的似然函数（注意，这里 $x_1, x_2, ..., x_n$ 都是已知的样本值，它们都是常数）。

关于最大似然估计法，我们有以下的直观想法：现在已经取到样本值 $x_1, x_2, ..., x_n$ 了，这表明取到这一样本值的概率 $L(\theta)$ 比较大。我们当然不会考虑那些不能使样本 $x_1, x_2, ..., x_n$ 出现的 $\theta \in \Theta$ 作为 $\theta$ 的估计。再者，如果已知当 $\theta = \theta_0 \in \Theta$ 时使 $L(\theta)$ 取得很大值，而 $\Theta$ 中的其他 $\theta$ 的值使 $L(\theta)$ 取很小值，我们自然认为取 $\theta_0$ 作为未知参数 $\theta$ 的估计值，较为合理。由费希尔（R. A. Fisher）引进的最大似然估计法，就是固定样本观察值 $x_1, x_2, ..., x_n$，在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使似然函数 $L(x_1, x_2, ..., x_n; \theta)$ 达到最大的参数 $\hat{\theta}$，作为参数 $\theta$ 的估计值。即取 $\hat{\theta}$ 使 $$ L(x_1, x_2, ..., x_n; \hat{\theta}) = \max_{\theta \in \Theta}L(x_1, x_2, ..., x_n; \theta) $$

这样得到的 $\hat{\theta}$ 与样本值 $x_1, x_2, ..., x_n$ 有关，常记为 $\hat{\theta}(x_1, x_2, ..., x_n)$，称为参数 $\theta$ 的最大似然估计值。而相应的统计量 $\hat{\theta}(X_1, X_2, ..., X_n)$ 称为参数 $\theta$ 的最大似然估计量。

若总体 $X$ 属连续型，其概率密度 $f(x;\theta), \theta \in \Theta$ 的形式已知，$\theta$ 为待估参数，$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, ..., X_n$ 是来自 $X$ 的样本，则 $X_1, X_2, ..., X_n$ 的联合分布律为 $$\prod_{i=1}^n f(x;\theta)$$

设 $x_1, x_2, ..., x_n$ 是相应于样本 $X_1, X_2, ..., X_n$ 的一个样本值。设随机点 $X_1, X_2, ..., X_n$ 落在点 $x_1, x_2, ..., x_n$ 的邻域(边长分别为 $dx_1, dx_2, ..., dx_n$ 的n维立方体)内的概率近似地为 $$ \prod_{i=1}^n f(x_i;\theta)dx_i $$

其值随 $\theta$ 的取值而变化。与离散型的情况一样，我们取 $\theta$ 的估计值 $\hat{\theta}$ 使上述概率取到最大值，但因子 $\prod_{i=1}^n dx_i$ 不随 $\theta$ 而变，估只需考虑函数

$$ L(\theta) = L(x_1, x_2, ..., x_n; \theta) = \prod_{i=1}^n f(x_i;\theta) $$

的最大值。这里 $L(\theta)$ 称为样本的似然函数。若

$$ L(x_1, x_2, ..., x_n; \hat{\theta}) = \max_{\theta \in \Theta}L(x_1, x_2, ..., x_n; \theta) $$

则称 $\hat{\theta}(x_1, x_2, ..., x_n)$ 为 $\theta$ 的最大似然估计值，称 $\hat{\theta}(X_1, X_2, ..., X_n)$ 为 $\theta$ 的最大似然估计量。

这样，确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。

在很多情况下，$p(x; \theta)$ 和 $f(x; \theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 常可从方程 $\frac{d}{d\theta}L(\theta) = 0$ 解得。又因 $L(\theta)$ 与 $lnL(\theta)$ 在同一 $\theta$ 处取得极值，因此，$\theta$ 的最大似然估计值 $\theta$ 也可以从方程 $\frac{d}{d\theta}lnL(\theta) = 0$ 求得，这一方程称为对数似然方程，从对数似然方程求解往往比较方便。

总结：似然性与概率意思相近，都是指某种事件发生的可能性。但是在统计学中，似然性与概率又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

2. 区间估计 Interval Estimation

Todo